Teksti normaliseerimine

 See artikkel on arvutilingvistikast. Keeleteaduse morfoloogia kohta vaata artiklit sõna normaliseerimine.

Teksti normaliseerimine on loomuliku keele töötluses ebastandardsele tekstile standardse vaste leidmine. Loomuliku keele töötluse programmid on loodud töötama standardse tekstiga, aga leidub mitmeid keelekorpuseid, mille tekst on ebastandardne.[1] Sellised on näiteks vanad tekstid[2], meditsiinitekstid[3], sotsiaalmeedias või telefonis kirjutatud säutsud, SMSid[4] jne ja tavalise teksti kõneks sünteesimine[5] . Ebastandardsused sõltuvad teksti liigist.

  1. Plank, Barbara. "What to do about non-standard (or non-canonical) language in NLP" (PDF). Proceedings of the 13th Conference on Natural Language Processing (KONVENS 2016). Vaadatud 5.12.2020.
  2. Tang, Gongbo & Cap, Fabienne & Pettersson, Eva & Nivre, Joakim (2018). "An Evaluation of Neural Machine Translation Models on Historical Spelling Normalization". Vaadatud 09.12.2020.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  3. Kvist, Maria & Velupillai, Sumithra (september 2014). "SCAN: A Swedish Clinical Abbreviation Normalizer". 62–73. Vaadatud 09.12.2020.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  4. Kobus, Catherine and Yvon, François and Damnati, Géraldine (jaanuar 2008). "Normalizing SMS: are Two Metaphors Better than One ?". Coling 2008 – 22nd International Conference on Computational Linguistics, Proceedings of the Conference. 441–448. Vaadatud 09.12.2020.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  5. Zhang, Hao and Sproat, Richard and Ng, Axel and Stahlberg, Felix and Peng, Xiaochang and Gorman, Kyle and Roark, Brian (märts 2019). "Neural Models of Text Normalization for Speech Applications". Computational Linguistics. 1–49. Vaadatud 10.12.2020.{{netiviide}}: CS1 hooldus: mitu nime: autorite loend (link)

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search